Regresión logística multinomial

La funcionalidad de la regresión logística multinomial implementa un modelo de regresión utilizando el algoritmo de Máxima Verosimilitud. Esta técnica es la extensión natural de la regresión logística binaria para casos en los que la variable dependiente tiene tres o más categorías sin un orden intrínseco (ej. elección de marca, tipo de transporte o segmento de cliente).

El motor replica el comportamiento del procedimiento NOMREG de SPSS, seleccionando automáticamente la última categoría como referencia y generando ecuaciones comparativas para el resto de los niveles.El informe se organiza en bloques lógicos que permiten evaluar desde el ajuste global hasta el comportamiento individual de cada sujeto.

📋 Requerimientos y preparación de datos (inputs)

Para garantizar la estabilidad del modelo, el usuario debe prestar atención a la naturaleza de las variables introducidas:

  • Variable Dependiente (dep_var): Debe ser una variable categórica (Nominal). Aunque puede introducirse como texto, BarbWin 8 recomienda el uso de códigos numéricos con etiquetas. El algoritmo identificará el valor más alto como la Categoría de Referencia.
  • Variables Independientes (indep_vars): Pueden ser métricas (continuas) o variables categóricas transformadas a numéricas (variables “dummy”).
  • Identificador (id_var): Es obligatorio para la trazabilidad de los casos y la correcta generación del archivo de diagnóstico JSON.
  • Ponderación (weight_var): Si se aplica, el motor expande la muestra internamente para reflejar las proporciones poblacionales en las matrices de cálculo.

📊 Estructura de resultados y salida

Resumen del historial de modelos

Esta tabla muestra la evolución del ajuste si se utiliza un método de selección de variables (Stepwise, Forward o Backward).

  • Variables incluidas: Detalla qué predictores componen cada paso, eliminando el efecto de “caja negra” y mostrando cómo se construye el modelo final.
  • -2 Log Verosimilitud: Medida del error del modelo. Este valor disminuye a medida que el ajuste general mejora con la entrada de nuevas variables.
  • Pseudo R-cuadrados: Dado que en la regresión logística no existe un \(R^2\) lineal tradicional, se presentan los índices de Cox y Snell, Nagelkerke (el estándar de referencia) y McFadden para cuantificar la proporción de varianza explicada.

Matriz de clasificación

Evalúa la precisión predictiva del modelo comparando el grupo real frente al grupo que el algoritmo considera más probable.

  • Acierto por Categoría: Permite identificar rápidamente si el modelo es excelente prediciendo un grupo específico, pero deficiente en otros (por ejemplo, debido a un desbalanceo en los datos originales).
  • Porcentaje Global Correcto: La eficacia total del modelo. Para que el análisis sea útil, este porcentaje debe superar holgadamente la probabilidad teórica de acierto por puro azar.

Estimaciones de parámetros

El análisis multinomial descompone el problema en múltiples ecuaciones. Si se analizan tres categorías (1, 2 y 3) y la categoría 3 es la de referencia, la tabla mostrará dos bloques de coeficientes distintos:

  • Categoría Predicha (ej. Grupo 1 Frente a Ref: 3): Indica el impacto de las variables independientes en la probabilidad de pertenecer al Grupo 1 en lugar de al Grupo 3.
  • B: El coeficiente logístico. Un valor positivo indica que el incremento de esa variable predictora empuja al sujeto hacia la categoría analizada, alejándolo de la categoría de referencia.
  • Wald: Estadístico que indica la potencia y significación de la variable en la discriminación exacta de ese grupo.
  • Exp(B): La Razón de Riesgo Relativo. Es la métrica clave para la interpretación de negocio. Si es mayor a 1, la probabilidad de pertenecer a esa categoría frente a la de referencia aumenta exponencialmente por cada unidad extra del predictor.

💡 Notas técnicas

Manejo de outliers (separación completa)

En situaciones donde una variable predictora separa a un grupo con casi un 100% de exactitud, el algoritmo sufre un fenómeno conocido como “separación completa”. En estos casos, los valores de Wald y Exp(B) crecen de forma desproporcionada hacia el infinito. BarbWin 8 detecta automáticamente estas anomalías y formatea los resultados en notación científica (ej. 2.5e+15) para alertar al analista de esta redundancia matemática.

Scoring

El motor generará un archivo que asocia el identificador de cada individuo con su probabilidad exacta calculada para cada una de las categorías del modelo. Esta matriz de probabilidades completas es una herramienta esencial para realizar segmentaciones avanzadas, scoring de clientes o acciones de marketing predictivo.